The strong few-shot in-context learning capability of large pre-trained language models (PLMs) such as GPT-3 is highly appealing for application domains such as biomedicine, which feature high and diverse demands of language technologies but also high data annotation costs. In this paper, we present the first systematic and comprehensive study to compare the few-shot performance of GPT-3 in-context learning with fine-tuning smaller (i.e., BERT-sized) PLMs on two highly representative biomedical information extraction tasks, named entity recognition and relation extraction. We follow the true few-shot setting to avoid overestimating models' few-shot performance by model selection over a large validation set. We also optimize GPT-3's performance with known techniques such as contextual calibration and dynamic in-context example retrieval. However, our results show that GPT-3 still significantly underperforms compared to simply fine-tuning a smaller PLM. In addition, GPT-3 in-context learning also yields smaller gains in accuracy when more training data becomes available. Our in-depth analyses further reveal issues of the in-context learning setting that may be detrimental to information extraction tasks in general. Given the high cost of experimenting with GPT-3, we hope our study provides guidance for biomedical researchers and practitioners towards more promising directions such as fine-tuning small PLMs.
translated by 谷歌翻译
This study focuses on embodied agents that can follow natural language instructions to complete complex tasks in a visually-perceived environment. Existing methods rely on a large amount of (instruction, gold trajectory) pairs to learn a good policy. The high data cost and poor sample efficiency prevents the development of versatile agents that are capable of many tasks and can learn new tasks quickly. In this work, we propose a novel method, LLM-Planner, that harnesses the power of large language models (LLMs) such as GPT-3 to do few-shot planning for embodied agents. We further propose a simple but effective way to enhance LLMs with physical grounding to generate plans that are grounded in the current environment. Experiments on the ALFRED dataset show that our method can achieve very competitive few-shot performance, even outperforming several recent baselines that are trained using the full training data despite using less than 0.5% of paired training data. Existing methods can barely complete any task successfully under the same few-shot setting. Our work opens the door for developing versatile and sample-efficient embodied agents that can quickly learn many tasks.
translated by 谷歌翻译
The human ear is generally universal, collectible, distinct, and permanent. Ear-based biometric recognition is a niche and recent approach that is being explored. For any ear-based biometric algorithm to perform well, ear detection and segmentation need to be accurately performed. While significant work has been done in existing literature for bounding boxes, a lack of approaches output a segmentation mask for ears. This paper trains and compares three newer models to the state-of-the-art MaskRCNN (ResNet 101 +FPN) model across four different datasets. The Average Precision (AP) scores reported show that the newer models outperform the state-of-the-art but no one model performs the best over multiple datasets.
translated by 谷歌翻译
随着网络攻击和网络间谍活动的增长,如今需要更好,更强大的入侵检测系统(IDS)的需求更加有必要。 ID的基本任务是在检测Internet的攻击方面充当第一道防线。随着入侵者的入侵策略变得越来越复杂且难以检测,研究人员已经开始应用新颖的机器学习(ML)技术来有效地检测入侵者,从而保留互联网用户对整个互联网网络安全的信息和整体信任。在过去的十年中,基于ML和深度学习(DL)架构的侵入检测技术的爆炸激增,这些架构在各种基于网络安全的数据集上,例如DARPA,KDDCUP'99,NSL-KDD,CAIDA,CAIDA,CTU--- 13,UNSW-NB15。在这项研究中,我们回顾了当代文献,并提供了对不同类型的入侵检测技术的全面调查,该技术将支持向量机(SVMS)算法作为分类器。我们仅专注于在网络安全中对两个最广泛使用的数据集进行评估的研究,即KDDCUP'99和NSL-KDD数据集。我们提供了每种方法的摘要,确定了SVMS分类器的作用以及研究中涉及的所有其他算法。此外,我们以表格形式对每种方法进行了批判性综述,突出了所调查的每种方法的性能指标,优势和局限性。
translated by 谷歌翻译
视频稳定在提高视频质量方面起着核心作用。但是,尽管这些方法取得了很大的进展,但它们主要是在标准天气和照明条件下进行的,并且在不利条件下的性能可能会差。在本文中,我们提出了一种用于视频稳定的综合感知不良天气鲁棒算法,该算法不需要真实数据,并且只能在合成数据上接受培训。我们还提出了Silver,这是一种新颖的渲染引擎,可通过自动地面提取程序生成所需的训练数据。我们的方法使用我们的特殊生成的合成数据来训练仿射转换矩阵估计器,避免了当前方法面临的特征提取问题。此外,由于在不利条件下没有视频稳定数据集,因此我们提出了新颖的VSAC105REAL数据集以进行评估。我们将我们的方法与使用两个基准测试的五种最先进的视频稳定算法进行了比较。我们的结果表明,当前的方法在至少一个天气条件下的表现差,即使在一个具有合成数据的小数据集中培训,我们就稳定性得分,失真得分,成功率和平均种植方面取得了最佳性能考虑所有天气条件时的比率。因此,我们的视频稳定模型在现实世界的视频上很好地概括了,并且不需要大规模的合成训练数据来收敛。
translated by 谷歌翻译
仿真是用于创建控制策略和测试各种物理参数的机器人技术的重要步骤。 Soft Robotics是一个领域,由于可变形材料组件的非线性以及其他创新性且通常是复杂的物理特性而引起了独特的物理挑战,以模拟其主题。由于使用传统技术模拟柔软和异质物体的计算成本,刚性机器人模拟器不太适合模拟软机器人。因此,许多工程师必须构建自己为系统量身定制的一次性模拟器,或使用具有降低性能的现有模拟器。为了促进这项激动人心的技术的开发,这项工作为各种软机器人提供了交互式,准确和多功能的模拟器。我们的开源3D仿真引擎Cronos与可变形和刚性对象的超快速性能的质量弹簧模型平行。我们的方法适用于多种非线性材料构型,包括高变形性,体积致动或异质刚度。这种多功能性提供了在单个机器人模拟中自由混合材料和几何成分的能力。通过利用非线性胡克恩质量弹簧系统的灵活性和可扩展性,该框架通过高度并行模型模拟柔软而刚性的对象,以实现近实时速度。我们描述了有效的GPU CUDA实施,我们证明了该实施是为了在消费级GPU卡上实现每秒超过10亿个元素的计算。通过将结果与Euler-Bernoulli光束理论,固有频率预测和软结构在大变形下的软结构进行比较来验证系统的动态物理准确性。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
自闭症谱系障碍(ASD)是一种神经发育障碍,导致发生改变的行为,社会发展和通信模式。在过去几年中,自闭症患病率增加了两倍,现在有1分中有1个现在受到影响。鉴于传统诊断是一种冗长,劳动密集型的过程,已经对自动筛选自闭症的发展系统来说,已经提出了重大关注。韵律异常是自闭症的最明显的迹象,受影响的儿童展示言语特质,包括梯度,单调的语调,非典型音高和不规则语言压力模式。在这项工作中,我们展示了一套机器学习方法,以检测自闭症和神经典型(NT)儿童在家庭环境中捕获的自闭症语音音频中的自闭症。我们考虑了三种方法来检测儿童的自闭症语言:首先,在提取的音频特征(包括熔融频率跳跃系数)上培训的随机森林;二,卷积神经网络(CNNS)培训谱图;第三,微调Wav2Vec 2.0 - 基于最先进的基于变压器的ASR模型。我们在从斯坦福的猜测中培训我们的小说Todaset的小说数据集的分类器?移动游戏,一个应用程序,旨在在自然家庭环境中占有自闭症和神经典型的儿童的视频。随机森林分类器实现了70%的精度,微调Wav2Vec 2.0型号达到了77%的精度,CNN在将儿童的音频视为ASD或NT时,CNN可实现79%的准确性。我们的模型能够在具有不一致的录制质量选择的家庭音频剪辑上培训时预测自闭症状态,这可能更广泛地对现实世界的条件。这些结果表明,机器学习方法提供了在没有专门设备的语音中自动检测自闭症的承诺。
translated by 谷歌翻译
异常气道扩张,称为牵引支气管扩张,是特发性肺纤维化(IPF)的典型特征。体积计算断层扫描(CT)成像捕获IPF中逐渐变细的丢失。我们假设气道异常的自动化量化可以提供IPF疾病程度和严重程度的估算。我们提出了一种自动化计算管道,系统地将气道树木从基于深度学习的气道分割中划分到其裂片和世代分支,从而从胸部CT获得气道结构措施。重要的是,透气阻止通过厚波传播的杂散气道分支的发生,并通过图表搜索去除气道树中的环,克服现有气道骨架算法的限制。在14名健康参与者和14名IPF患者之间比较了透气段(跨空间)和透气曲线曲线之间的逐渐变化。 IPF患者中,Airway interberering显着降低,与健康对照相比,Airway曲线曲调显着增加。差异在下叶中最大标记,符合IPF相关损伤的典型分布。透气是一种开源管道,避免了现有的气道定量算法的限制,并具有临床解释性。自动化气道测量可能具有作为IPF严重程度和疾病程度的新型成像生物标志物。
translated by 谷歌翻译
正式的自闭症诊断可以是效率低下和冗长的过程。尽管有证据表明早期的干预导致更好的治疗结果,但家庭可能会等待几个月或更长时间。数字技术检测与自闭症相关的行为的存在可以扩展到儿科诊断。这项工作旨在展示深度学习技术的可行性,用于从非结构化的家庭视频检测手动拍打作为验证模型和数字技术是否可以利用自闭症诊断的第一步。我们使用了自我刺激行为数据集(SSBD),其中包含75个手扑扑,头部敲打和儿童展示的旋转。从所有的手拍摄视频中,我们提取了100个扑扑的100个正和控制视频,每个持续时间为2到5秒。利用地标驱动方法和MobileNet V2的预训练层,我们的最高性能模型在评估5倍的交叉验证时,达到了84%(90%精度和80%召回)的测试F1得分。这项工作为开发精确的深层学习方法提供了对自闭症相关行为的活动检测的第一步。
translated by 谷歌翻译